Aprendizaje de Representación Multitarea para Bandidos Lineales Conservadores
Aprendizaje multitarea para bandidos lineales conservadores: optimiza recompensas respetando restricciones de seguridad. Enfoque novedoso.
Aprendizaje multitarea para bandidos lineales conservadores: optimiza recompensas respetando restricciones de seguridad. Enfoque novedoso.